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У статті проаналізовано основні процедури пошуку елементів міжфразового зв'язку та розв'язання кон- 
фліктів посилань. На основі цього запропоновано узагальнений алгоритм, який комбінує переваги існуючих про- 
цедур пошуку елементів міжфразового зв'язку. Описано переваги обраних процедур та їх послідовності, наведено 
формальний опис вхідних даних та результатів алгоритму. Для оптимізації процедури сканування тексту алго- 
ритм виконано у вигляді ітеративного зменшення кандидатів елементів зв'язку, що досягається за рахунок посту- 
пового підтвердження безконфліктних зв'язків. 
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Вступ 

Семантичний аналіз тексту наразі зна- 
ходить застосування у широкому класі за- 
дач: тематична класифікація, анотування або 
стиснення тексту, переклад, пошук близьких 
за змістом документів, оцінка авторства, по- 
шук знань та інші. Усі з наведених задач 
об'єднує спільна мета - необхідність виділен- 
ня семантичних зв'язків для можливості об- 
робки змісту тексту. 

Роботи в області семантичного аналізу 
ведуться досить давно як вітчизняними, так і 
зарубіжними фахівцями. Однією з перших 
фундаментальних робіт можна вважати 
теорію породжувальної граматики |, ціля- 
ми якої було: побудова глибинної синтаксич- 
ної структури, запис значень кожного речен- 
ня та виявлення семантичних аномалій. Роз- 
витком в іншому напрямку стало створення 
предикатно-аргументних структур (21, в яких 
мовним конструкціям (аргументам) припису- 
валися ролі: агент, об'єкт, місце, адресат, ін- 
струмент, джерело. Серед розмаїття сучасних 
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підходів до семантичного аналізу природно- 
мовних текстів практичного застосування 
знаходять методи на основі кластеризації та 
статистичного аналізу |3-7). Дані методи ви- 
користовуються для аналізу великих масивів 
даних (наприклад, веб-ресурсів або тексто- 
вих бібліотек) оскільки мають відносно неве- 
лику обчислювальну складність. Однак, мно- 
жина задач, які можуть вирішити дані мето- 
ди, є вкрай обмеженою та потребує залучен- 
ня експертів або додаткових засобів навчання 
систем |6-7). Для задач, пов'язаних із транс- 
формацією тексту (переклад, пошук знань), 
використовують модифікації нейронних ме- 
реж (наприклад, удосконалену довгу корот- 
котривалу пам'ять |81|) або підходи, що засно- 
вані на онтологічних базах та засобах адаїа 
пипіпе |9, 10). Недоліком зазначених вище за- 
собів семантичного аналізу окрім нетривіаль- 
ності та певної невизначеності, які неминуче 
виникають при використанні нейронних ме- 
реж, є також алгоритмічна складність невід/- 
ємної факторизації матриць та тематична за- 
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лежність, які ускладнюють застосування 

даних засобів. 

У даній роботі пропонується розробка 
універсального алгоритму пошуку елемен- 
тів міжфразового зв'язку, який матиме змогу 
працювати за набором правил із довільним 
фрагментом природномовного тексту. 

Мета дослідження 

Метою даного дослідження є розробка 
детермінованого узагальненого алгоритму 
пошуку слів або словосполучень, які зв'язу- 
ють за змістом вислови на природній мові. 

Формування цілісного змісту тексту є 
розвитком роботи розпізнавання проявів 
емоцій людини за голосом (11). Врахування 
семантичної ознаки тону висловлювання доз- 
волить знизити помилку розпізнавання груп 
близьких за акустичними ознаками емоцій. 

Постановка задачі 

Із мети даної роботи випливають на- 
ступні задачі: 

1. Визначити вхідні дані та вимоги до 
результату. 

2. Проаналізувати основні процедури по- 
шуку елементів міжфразового зв'язку та 
розв'язання конфліктів посилань. 

3. Сформувати узагальнений алгоритм із 
обгрунтуванням обраних процедур та їх 
послідовності, описом переваг та недо- 
ліків даного підходу. 

Опис дослідження 

Для початку аналізу наявних елемен- 
тів міжфразового зв'язку необхідно викона- 
ти побудову семантичної структури окре- 
мих висловлювань (простих речень або час- 
тин складних речень). Опис синтаксичної 
структури висловлювання можна виконува- 
ти шляхом виділення в ньому складових -- 
груп слів, що функціонують як цілісні син- 
таксичні одиниці, або визначенням для кож- 
ного слова тих слів, які йому безпосередньо 
підпорядковані. У першому випадку вико- 
ристовується граматика складових і буду- 
ється дерево складових, у другому випадку 
використовується граматика залежностей і 
будується відповідне дерево. Вхідними да- 
ними для алгоритму пошуку міжфразових 
зв'язків будемо вважати саме дерева залеж- 
ності окремих висловлювань. Це зумовлено 


155 1561-5359. Штучний інтелект, 2019, Х» 1-2 


тим, що структура залежностей є більш ін- 
формативною для подальшого аналізу. Ко- 
реневим вузлом у дереві граматики залеж- 
ностей виступає предикатор - логічний при- 
судок висловлювання (яким зазвичай є діє- 
слово із групи присудка). 

Усі вирази, які входять до складу ви- 
словлювання, поділяють на дескриптивні та 
логічні терміни. Дескриптивними терміна- 
ми називають слова або словосполучення, 
які позначають предмети, властивості, від- 
ношення чи дії, операції над предметами. 
Логічними термінами називають слова, які 
фіксують зв'язки, відношення, характерис- 
тики, що забезпечують інваріантність семіо- 
тичного інваріанту висловлювання за всіх 
можливих перетворень і будь-яких значень 
його дескриптивних термінів |12). 

Формальний опис дерева залежностей 
буде мати наступний вигляд: 


То Р Сребаі 65); 
де Р - предикатор, 
Ср - група підмета, 
Са - група додатка, 
Со - група обставини. 


За сукупністю даних формул вислов- 
лювань створюється модель тексту, що пред- 
ставляє собою множину схем обчислення 
значень об'єктів, згаданих у висловах. Кожна 
така схема є своєрідним аналогом алгебраїч- 
ного дерева обчислень |6|. Отже, результа- 
том виконання алгоритму пошуку елементів 
міжфразового зв'язку повинна бути описана 
вище модель тексту, яка є нелінійною комбі- 
нацією схем окремих висловлювань. 

Пошук зв'язку між висловлюваннями 
можливо виконувати в прямому або зворот- 
ному порядку. 

Прямий порядок передбачає виявлен- 
ня референсних конструкцій, за якими ана- 
лізуються сусідні висловлювання та, за на- 
явності сумісних із посиланнями груп під- 
мету, додатку чи обставини, виконується 
об'єднання дерев семантичних залежностей. 
У якості референсних конструкцій виступає 
множина попередньо визначених термінів 
або послідовність лексичних одиниць, Які 
сигналізують про наявність посилання у да- 
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ному висловлюванні на інший (частіше за 
все попередній) фрагмент тексту. Приклада- 
ми таких конструкцій є особові та вказівні 
займенники («той», «вони»), підсумовуючі 
(«таким чином», «виходячи з цього») та по- 
рівняльні звороти з використанням слів («ще 
більше», «раніше»), прикметники у винятко- 
вих конструкціях («аналогічний») та інші. 
Зручність прямого порядку полягає в тому, 
що для референсних конструкцій можливо 
визначити групи термінів-адресатів, за яки- 
ми виконуватиметься швидкий пошук у 
сусідніх висловлюваннях. 

Зворотній порядок пошуку відштовху- 
ється від тези наявності зв'язку між усіма ви- 
словлюваннями. В такому разі постає необ- 
хідність попарного аналізу термінів та лек- 
сичних конструкцій на наявність зв'язку між 
ними. Перевагою зворотнього порядку є зна- 
ходження більшої кількості можливих зв'яз- 
ків між висловлюваннями. Водночас це є Й 
проблемою, оскільки нагальним питанням 
постає фільтрація зв'язків кандидатів та роз- 
в'язання конфліктів, які виникають внаслі- 
док випадкових або лексично залежних 
співпадінь. 

Опис алгоритму 

У даній роботі запропоновано алго- 
ритм пошуку елементів міжфразового зв'яз- 
ку із поєднанням описаних вище підходів. 
Узагальнена схема алгоритму представлена 
на рисунку 1. 

Слід зазначити, виникнення конфлік- 
тів між кандидатами елементів семантичних 
зв'язків між висловлюваннями виникає не 
тільки при зворотньому, а також можливо і 
при прямому порядку пошуку. Оскільки роз- 
в'язання конфліктів не є тривіальним завдан- 
ням, необхідним буде мінімізація їх виник- 
нення для прискорення роботи алгоритму. 

Для оптимізації процедури сканування 
тексту алгоритм виконано у вигляді ітера- 
тивного зменшення кандидатів елементів 
зв'язку. Це досягається за рахунок підтверд- 
ження безконфліктних зв'язків та поступо- 
вого розв'язання конфліктів. 
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Побудова семантичної структури 
окремих висловлювань 
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Рис. 1. Узагальнена схема алгоритму 
пошуку елементів міжфразового зв'язку. 


На наступному етапі виконується ана- 
ліз сусідніх словосполучень, виходячи із типу 
класифікованих референсних конструкцій. 

Для прямих посилань знаходяться уз- 
годжені із ними слова та словосполучення. 
У разі знаходження декількох адресатів се- 
ред них обирається головніший за семантич- 
ним деревом залежностей, а якщо вузли- 
адресати однакової глибини в деревах, то 
конфлікт розв'язується аналогічно непря- 
мим посиланням на наступній ітерації. 

Для узагальнених посилань знаходять- 
ся дії або інші логічні предикати у сусідніх 
висловлюваннях. За їх відсутності або за 
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наявності конфліктів розв'язання виконуєть- 
ся в рамках непрямих посилань наступним 
чином. 

Визначення адресатів непрямих поси- 
лань виконується за допомогою наявної се- 
мантичної бази. Оскільки в даному випадку 
між претендентами на зв'язок між висловлю- 
ваннями відсутня узгодженість та близь- 
кість за синтаксичними деревами залежнос- 
ті, відбір адресатів відбувається за рахунок 
пошуку посилань на дані терміни у семан- 
тичній базі. Важливим є абстрагування текс- 
тових термінів від опису семантичних ви- 
словлювань усередині бази для вирішення 
проблеми синонімії та подальшого розши- 
рення семантичної бази іншомовною термі- 
нологією. Далі пошук звужується після про- 
ведення фільтрації за спільними атрибутами 
семантичної бази. Визначення семантично- 
го зв'язку Т між терміном Ку та референс- 
ним посиланням К, Є 0 має вигляд: 

арок, 

де п - Кількість конфліктних конст- 


рукцій К.. 


Відстань ) обчислюється як довжина 
між відповідними вузлами мережі семантич- 
ної бази. 

Процес розв'язання конфліктів за раху- 
нок фільтрації атрибутів у семантичній базі 
є найбільш ресурсомістким у даному алго- 
ритмі, фактично виконується зворотній по- 
шук зв'язку між висловлюваннями. Тому 
пріоритет надається знаходженню тривіаль- 
них зв'язків за словниками або узгодженими 
конструкціями і тільки в разі виникнення 
складних конфліктів залучається семантич- 
на база. 

Висновки 

У статті запропоновано удосконалений 
алгоритм пошуку елементів міжфразового 
зв'язку за рахунок комбінації підходів аналізу 
виконання. Продовженням даної роботи мо- 
же стати програмна реалізація та числове до- 
слідження запропонованого алгоритму, по- 
рівняння ефективності результатів його 
роботи із результатами провідних алгоритмів. 

Застосування семантичного аналізу 
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послідовності висловлювань може підвищи- 
ти ефективність прикладних задач розпізна- 
вання образів. Зокрема, використання алго- 
ритму у системі класифікації емоційних 
проявів за голосом гіпотетично може дозво- 
лити розпізнавати додаткові тональності 
емоцій, які наразі не можуть бути визначені 
виключно акустичними та просодичними 
характеристиками (11). 
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КЕ5ОМЕ 


М.8. КіутепкКо 

Тре  аієогійт Гог  дебіпійоп ої 
соппесіїуєе еї|етепі5 Бекугееп ріга5е5 іп Ше 
5едиепсе ої Іехі 5:аїетепів 


Тре обіесі ої Фіз 5иду 15 (0 Фемеїор а 
декегтіпед репегайуед аїсогіїбт Їог Ппдіпє 
ууога8 ог ріга5ез Баг зеттаписаПу соппесі Фе 
сопіепі ої ехргез5іопя їп Ше паїига! Іапепаєє. 

І ре агіїсіе Ше Базіс ргоседигеє Їог 
Ппатя ої соппесйуе еіетепія апа ге5оЇміпе 
сопПісіє ої геїегепсе5 15 апаїугед. 5Зептапіс 
їехі апаЇузіз 15 ситепйу ц5еад іп а уліде уагіеїу 
ої ка5к8: Шеплабіс сіаз5ійсайоп, аппогайоп ог 
согаргезвіоп ої Ше Кехі, (гапзіайоп, 5еагсп Їог 
геіаїед  доситепів, аш(ог5пір  емаїцайоп, 
Кпоміедєе 5еагср, апа офег58. М/огк5 іп Фе 
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Пе!д ої зетапіс апаЇузіє аге сопдисіва їога 
Іопе йте Бу дФотезііс апа Їогеїєп 5рестаї5і5. 

Атопеє Фе уагіеїу ої плодегп арргоаспез 
іо 5еплапіїс апаїузі5 ої пакига! Іапецаєе (ехія 
Гог ргасіса! арріїсацоп аге теїподз Базед оп 
сПа5кегіпе апа 5іайзйса! апаЇузіз. ТПе гапее ої 
а5К5 Шаї Шезе тешодз сап 50Їуе аге ехітетеїу 
йтиеа апа гедиіге (пе іпуоіуетепі ої ехрегія 
ог аЧаїопа! ігаїпіпе 5узіет5. Бог (а5К5 геіакед 
го Ше кап5богтайоп ої (ехі, пподійсацопя ої 
пешгаї пебуогк5 ог арргоаспе5 ФБазедй оп 
опіоіовіса! Чагаба5ез апа Чака паїпіпе аге цееа. 
Тре Ф5адуатаєе ої Шезе тешШод5 ої 5зетапіс 
апаїузі5 15 поп-шіміайсу апа шпсегіаїніу іп 
десі5іоп плзаКіпе раї аге іпеутабіу агі5ез їп Фе 
арріпсайоп ої пеигаї пеїм/огК5, а5 ме а5 Ше 
аїєогійртіс сотріехіку ої пербайує плаїгісе5 
Гасіогігайоп апа (ептайс дерепдепсу (Фа 
сотріїсагея Ше ц5е ої Шезе тейоайз. 

Іл Фі8 агісіє Фе аїсогійт ої 5еагсп ої 
соппесйує еЇетепі5 Бебуєеп ріга5е5 мій а 
сопбіпацоп ої пе де5сгібеа аїгесі апа геуег5е 
арргоасре5з 15 оНегей. ТПе єепегайед зспете 
ої Фе ргорозеа аЇїсогіт 15 Фезсгібеа. 

Уїпсе Ше ге5оийоп ої сопійсія 15 поса 
іпуіа са5К, її м Бе песез5агу (0 пипіті7е 
ШФеїг оссштепсе іп огдег (о ассеіегаїе Ше 
аїєогіїрт'я орегайоп. 

Тре їишге у/огк іп (бі5 Фігесйоп тау 
соп5і5(5 ої ргобгагі ігпріеппепіайоп апа 
питегісаї гезеагсП ої Ше ргорозеад аїєогійт, 
сотрагіпя, Ше ейеспуепез5 ої 1ї5 гезиіія мір 
Фе гезиіїв ої дезсгібед тодегп а|согіПт8. 
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